세상의 모든 통계 이야기
  • 기초수학·수리통계
  • 기초통계|조사방법
  • 회귀·다변량분석
  • MLDL개념
  • MLDL예측
  • MLDL분류
  • 차원축소|군집|인과추론|XAI
  • 카드뉴스
  • 통계상담
  1. 📄 차원축소 비지도학습
  • 【차원축소】
  • 📄 차원축소 개념|필요성
  • 📄 차원축소 통계적방법
  • 📄 차원축소 비지도학습
  • 📄 차원축소 사례분석
  • 【군집・비지도학습】
  • 📄 군집・비지도학습 개념
  • 📄 군집・비지도학습 방법론
  • 📄 군집・비지도학습 사례분석
  • 【인과추론|설명가능 AI】
  • 📄 인과추론 개념
  • 📄 설명가능 AI 개념

목차

  • Chapter 1. 비지도 학습
    • 1. 비지도학습과 차원축소
    • 2. Autoencoder: 재구성 오차 최소화로 학습되는 표현
    • 3. Bottleneck 구조와 차원축소의 대응
    • 4. 정규화와 변형
    • 5. PCA vs Linear AE: 언제 같고 언제 다른가
  • Chapter 2. 확률적 표현모형: 변분 오토인코더(VAE) 기반
    • 1. VAE 개념: 인코더–디코더와 확률적 잠재변수
    • 2. ELBO 직관: 재구성 항과 KL 정규화
    • 3. 잠재공간 해석: 보간, 클러스터, disentanglement
    • 4. 표현학습과 생성모형의 경계: 왜 샘플링이 가능한가
  • Chapter 3. 해석성과 표현력
    • 1. 선형 ↔︎ 비선형: 표현력 증가의 대가
    • 2. 설명 가능성 비교: PCA·요인분석의 로딩과 AE·VAE의 잠재특성
    • 3. 선택 가이드: 데이터 규모, 비선형성, 목적, 규제와 설명책임

차원축소: 비지도학습

Chapter 1. 비지도 학습

비지도 표현학습은 정답 라벨 y 없이 입력 데이터 x 자체로부터 유용한 표현 z를 학습하는 방법론이다. 이 절에서 다루는 오토인코더(autoencoder)는 입력 \(x \in \mathbb{R}^{p}\)를 저차원 잠재표현 \(z \in \mathbb{R}^{k}\)로 인코딩한 뒤 다시 \(\widehat{x} \in \mathbb{R}^{p}\)로 복원하도록 신경망을 학습시키는 구조이다. 오토인코더는 차원축소의 관점에서 \(x \rightarrow z\)가 표현학습이며, \(z \rightarrow \widehat{x}\)가 정보 보존을 강제하는 제약으로 작동하는 구조이다. 따라서 오토인코더는 단순히 변수를 줄이는 절차가 아니라, 데이터가 갖는 구조를 보존하는 방식으로 저차원 표현을 자동으로 학습하는 방법이다.

1. 비지도학습과 차원축소

비지도학습의 핵심 목표 중 하나가 ”라벨 없이 데이터의 구조를 요약한 저차원 표현 Z”를 만드는 일이기 때문이다. 즉 차원축소는 비지도학습이 가장 전형적으로 수행하는 과제 중 하나이며, 많은 비지도 기법이 결과적으로 \(X \rightarrow Z\) 형태의 표현을 만든다는 점에서 자연스럽게 같은 장에서 다루게 된다.

첫째, 라벨이 없을 때 가장 확실한 학습 목표가 ”구조 보존 요약”이기 때문이다. 지도학습은 y가 주어지므로 ”예측 오차 최소화”라는 목표가 명확하다. 반면 비지도학습은 y가 없으므로, 데이터 자체의 규칙성을 학습해야 한다. 이때 가장 기본적인 목표가 분산, 거리, 재구성, 밀도 같은 데이터의 내부 구조를 보존하면서 더 간단한 표현으로 압축하는 것이다. PCA는 분산을, 오토인코더는 재구성을, VAE는 확률적 재구성과 잠재공간 정규화를 통해 이를 수행하는 방법이다.

둘째, 차원축소는 ”표현학습”(representation learning)의 가장 표준적인 형태이기 때문이다. 차원축소는 원변수 공간의 정보를 \(k \ll p\)인 잠재표현으로 옮기는 과정이며, 이는 곧 표현학습 이다. 특히 오토인코더와 VAE는 비지도 표현학습의 대표 방법이며, 병목 구조는 차원축소의 직접적 구현이다. 따라서 비지도학습을 차원축소 장에서 다루면 PCA→AE→VAE로 이어지는 표현학습의 확장 흐름을 자연스럽게 구성할 수 있다.

셋째, 다운스트림 ML 성능의 출발점이 입력 표현이기 때문이다. 실무에서는 비지도 방식으로 먼저 Z를 만든 다음, 그 Z로 분류·회귀를 수행하는 파이프라인이 흔하다. 이때 차원축소는 과적합 완화, 계산 안정화, 노이즈 제거, 시각화의 역할을 동시에 하며, 비지도학습이 그 기반 표현을 제공하는 역할을 한다.

넷째, 군집화·시각화·이상치탐지도 차원축소와 결합되기 때문이다. 고차원에서는 거리 기반 군집화나 이상치 탐지가 불안정해지기 쉬우므로, 먼저 저차원 표현으로 옮긴 뒤 구조를 분석하는 방식이 흔하다. 따라서 차원축소는 비지도학습의 여러 과제를 가능하게 하는 전처리이자 핵심 구성요소가 된다.

정리하면, 비지도학습을 차원축소에서 설명하는 이유는 라벨이 없을 때 데이터를 학습하는 가장 대표적인 방식이 ”저차원 표현을 학습하는 것”이며, 그 표현이 이후 분석과 예측의 기반이 되기 때문이다.

2. Autoencoder: 재구성 오차 최소화로 학습되는 표현

오토인코더는 인코더 \(f_{\phi}( \cdot )\)와 디코더 \(g_{\theta}( \cdot )\)로 구성되는 신경망 모형이다. 입력 x가 주어졌을 때 잠재표현은

\(z = f_{\phi}(x)\)로 정의되는 구조이며, 복원값은 \(\widehat{x} = g_{\theta}(z) = g_{\theta}(f_{\phi}(x))\)로 정의되는 구조이다.

학습 목표는 \(\widehat{x}\)가 x와 최대한 같아지도록 만드는 것이며, 이를 위해 재구성 손실(reconstruction loss)을 최소화하는 방식이다. 일반적인 목적함수는 \(\min_{\phi,\theta}\frac{1}{n}\overset{n}{\sum_{i = 1}}\ell(x_{i},{\widehat{x}}_{i}) = \min_{\phi,\theta}\frac{1}{n}\overset{n}{\sum_{i = 1}}\ell(x_{i},g_{\theta}(f_{\phi}(x_{i})))\)인 형태이다.

손실함수 \(\ell( \cdot , \cdot )\)는 데이터 타입에 따라 달라지는 구조이다. 연속형 실수 데이터에서는 \(\ell(x,\widehat{x}) = \parallel x - \widehat{x} \parallel_{2}^{2}\)와 같은 제곱오차가 자연스러운 선택인 구조이다. 이진 데이터에서는 베르누이 우도에 대응하는 크로스엔트로피 형태가 자주 사용되는 구조이다.

오토인코더의 학습 결과로 얻어지는 핵심 산출물은 잠재표현 z이며, 이 z가 이후 분류, 회귀, 군집, 이상치 탐지 등의 다운스트림 과제에 투입되는 특징으로 사용되는 구조이다.

오토인코더는 비지도 학습이지만, 학습 과정에서의 ”정답”은 입력 x 자체이므로 자기지도(self-supervised) 구조를 갖는다고도 이해되는 방법이다. 즉 입력을 예측하도록 만드는 과정을 통해 데이터의 구조를 압축한 표현을 얻는 방식이다.

3. Bottleneck 구조와 차원축소의 대응

오토인코더가 유의미한 표현을 학습하려면 ”그냥 복사하기”가 어렵도록 제약이 필요하다. 이때 가장 기본적인 제약이 병목(bottleneck) 구조이다. 병목 구조는 잠재차원 k를 입력차원 p보다 작게 두는 설정이며, \(k < p\)를 강제하는 구조이다.

이 경우 인코더는 p차원의 정보를 k차원으로 압축해야 하고, 디코더는 그 압축된 정보로 p차원의 입력을 복원해야 하므로, z는 입력의 핵심 요약을 담을 수밖에 없는 구조이다. 이 점에서 병목 오토인코더는 차원축소와 직접 대응되는 구조이다.

다만 \(k < p\)라는 제약만으로 항상 좋은 표현이 보장되는 것은 아닌 구조이다. 신경망의 표현력이 지나치게 크면, 매우 복잡한 비선형 함수를 통해 사실상 훈련 데이터를 암기하는 형태로 재구성 손실을 줄일 수 있는 구조이다. 따라서 병목은 차원 제약을 제공하지만, 일반화 가능한 표현을 얻기 위해서는 추가 정규화가 함께 요구되는 구조이다.

4. 정규화와 변형

오토인코더는 ”재구성을 잘 하는 것”이 목표이지만, 재구성을 지나치게 잘 하면 오히려 일반화가 떨어질 수 있는 구조이다. 따라서 오토인코더는 재구성 성능과 표현의 일반화 사이의 균형을 위해 다양한 정규화 방식과 변형이 사용되는 구조이다.

Denoising Autoencoder

Denoising AE는 입력 x에 의도적으로 잡음을 섞은 \tilde x를 만들고, 그로부터 원래의 x를 복원하도록 학습하는 방식이다. 즉 \(\overset{˜}{x} \sim q(\overset{˜}{x} \mid x),\widehat{x} = g_{\theta}(f_{\phi}(\overset{˜}{x}))\)로 두고 \(\min_{\phi,\theta}\frac{1}{n}\overset{n}{\sum_{i = 1}}\ell(x_{i},g_{\theta}(f_{\phi}({\overset{˜}{x}}_{i})))\)를 최소화하는 구조이다. 이 방식은 입력의 작은 변형에 불변인 표현을 학습하게 하며, 잡음에 강건한 특징을 얻도록 유도하는 구조이다. 결과적으로 데이터의 국소적 구조를 따라가면서도 우연한 변동을 무시하는 표현이 강화되는 구조이다.

Sparse Autoencoder

Sparse AE는 잠재표현 z의 많은 성분이 0에 가까워지도록 희소성을 유도하는 방식이다. 대표적으로 \(\min_{\phi,\theta}\frac{1}{n}\overset{n}{\sum_{i = 1}}\ell(x_{i},{\widehat{x}}_{i}) + \lambda\Omega(z_{i})\)형태로 목적함수에 정규화 항을 추가하는 구조이다. \(\Omega( \cdot )\)는 \(L_{1}\) 패널티 \(\parallel z \parallel_{1}\) 또는 평균 활성화가 특정 값에 가깝도록 만드는 KL 기반 페널티 등이 사용되는 구조이다. 희소성은 ”몇 개의 특징만 켜져서 입력을 설명한다”는 표현을 만들며, 해석가능한 부분표현을 형성하는 데 유리한 경향이 있는 구조이다.

Contractive Autoencoder

Contractive AE는 입력 x가 조금 변할 때 잠재표현 \(z = f_{\phi}(x)\)가 크게 변하지 않도록, 인코더의 민감도를 직접 벌점으로 두는 방식이다. 대표적으로 인코더의 야코비안에 대한 정규화를 포함하여 \(\min_{\phi,\theta}\frac{1}{n}\overset{n}{\sum_{i = 1}}\ell(x_{i},{\widehat{x}}_{i}) + \lambda{\parallel \frac{\partial f_{\phi}(x_{i})}{\partial x_{i}} \parallel}_{F}^{2}\)형태로 학습하는 구조이다. 이 방식은 국소적으로 매끄러운 표현을 유도하여, 작은 입력 변동에 강건한 잠재공간을 형성하는 구조이다.

잠재차원 k 선택과 과적합·언더핏 신호

잠재차원 k는 오토인코더의 표현력과 정보손실을 결정하는 핵심 하이퍼파라미터이다. k가 너무 작으면 병목이 과도해져 중요한 정보를 담지 못하고 재구성 손실이 크게 남는 언더핏이 나타나는 구조이다. 이때 훈련 손실과 검증 손실이 모두 높고, 학습이 진행되어도 손실이 충분히 내려가지 않는 형태가 나타나는 구조이다.

반대로 k가 너무 크거나 모델이 과도하게 복잡하면 훈련 손실은 매우 낮아지지만 검증 손실이 충분히 내려가지 않거나 다시 증가하는 과적합이 나타나는 구조이다. 이는 모델이 데이터의 일반적 구조보다 표본 특이적 세부를 암기하는 방향으로 학습되기 때문인 구조이다.

따라서 k 선택은 재구성 손실의 교차검증 또는 홀드아웃 검증을 통해 수행하는 것이 타당한 구조이다. 또한 다운스트림 과제가 존재하면, 각 k에 대해 학습된 z를 이용해 분류·회귀 성능을 비교하여 선택하는 방식이 실용적인 구조이다.

5. PCA vs Linear AE: 언제 같고 언제 다른가

오토인코더가 선형이고 손실이 제곱오차일 때, PCA와 매우 밀접한 관계를 갖는 구조이다. 선형 오토인코더는 인코더와 디코더를 \(f_{\phi}(x) = W^{\top}x,g_{\theta}(z) = Wz\)와 같은 선형 형태로 두는 설정이다. 중심화된 데이터 행렬 X에 대해 이 경우 재구성은 \(\widehat{X} = XWW^{\top}\)가 되는 구조이며, 목적함수는 \(\min_{W^{\top}W = I_{k}} \parallel X - XWW^{\top} \parallel_{F}^{2}\)형태로 정리되는 구조이다.

이는 PCA의 재구성 관점 최적화와 동일한 문제이며, 해는 \(X^{\top}X\)의 상위 k개 고유벡터로 주어지는 구조이다. 따라서 선형 오토인코더, 제곱오차, 그리고 적절한 직교 제약이 결합되면, 오토인코더가 학습하는 부분공간은 PCA가 찾는 주성분 부분공간과 같아지는 구조이다.

그러나 실제 구현에서는 두 방법이 달라질 수 있는 요인이 존재하는 구조이다. 첫째, 선형 오토인코더에 직교 제약이 없으면, W가 PCA와 같은 형태로 정렬되지 않을 수 있으며, 동일한 부분공간을 다른 기저로 표현하는 해가 나타날 수 있는 구조이다.

둘째, 최적화 방식이 다르다. PCA는 고유값 분해로 전역해를 얻는 반면, 오토인코더는 경사하강 기반 학습을 하므로 초기값과 학습 설정에 따라 수렴 양상이 달라질 수 있는 구조이다.

셋째, 비선형 오토인코더는 PCA와 본질적으로 다른 방법이다. 비선형 활성함수와 깊은 네트워크를 사용하면, 오토인코더는 선형 부분공간이 아니라 비선형 다양체(manifold)에 가까운 구조를 학습할 수 있는 구조이다. 이때 z는 PCA로는 포착하기 어려운 비선형 구조를 표현할 수 있으며, 데이터가 비선형 구조를 갖는 경우 재구성과 다운스트림 성능에서 PCA를 능가할 수 있는 구조이다.

정리하면, PCA와 선형 오토인코더는 모두 재구성 기반 차원축소라는 공통점을 가지며, 선형·제곱오차·직교 제약 조건에서 동일한 부분공간을 산출하는 구조이다. 그러나 제약의 유무, 최적화 절차, 그리고 비선형성 도입 여부에 따라 두 방법은 같아지기도 하고 달라지기도 하는 방법이라는 결론으로 정리되는 절이다.

Chapter 2. 확률적 표현모형: 변분 오토인코더(VAE) 기반

확률적 표현모형은 입력 x를 하나의 고정된 잠재벡터 z로 압축하는 대신, z를 확률변수로 두고 그 분포를 학습하는 방식의 표현학습이다. 오토인코더가 \(x \rightarrow z \rightarrow \widehat{x}\)의 결정론적 경로로 재구성 오차를 최소화하는 구조라면, 변분 오토인코더 VAE는 z를 잠재확률변수로 설정하고 x가 어떤 잠재분포로부터 생성된 관측치라는 생성 관점을 함께 도입하는 구조이다. 여기서는 VAE의 인코더–디코더 구조, ELBO의 직관, 잠재공간 해석, 그리고 샘플링이 가능한 이유를 개념 중심으로 정리한다.

1. VAE 개념: 인코더–디코더와 확률적 잠재변수

VAE는 데이터 생성과 표현학습을 동시에 다루는 모형이다. 기본 아이디어는 잠재변수 \(z \in \mathbb{R}^{k}\)가 먼저 생성되고, 그 z로부터 관측 \(x \in \mathbb{R}^{p}\)가 생성된다고 가정하는 것이다. 이를 확률모형으로 쓰면 \(z \sim p(z),x \sim p_{\theta}(x \mid z)\)의 형태이다.

여기서 p(z)는 잠재변수의 사전분포이며 보통 표준정규분포 \(p(z) = \mathcal{N}(0,I)\)로 두는 구조이다. \(p_{\theta}(x \mid z)\)는 디코더가 매개변수화하는 조건부분포이며, \(\theta\)는 디코더 신경망의 파라미터이다. 이때 디코더는 z를 입력으로 받아 x의 분포를 출력하는 생성기 역할을 하는 구조이다. 연속형 데이터에서는 \(p_{\theta}(x \mid z) = \mathcal{N}(\mu_{\theta}(z),\sigma^{2}I)\)처럼 평균을 신경망이 출력하도록 두는 경우가 많고, 이진 데이터에서는 베르누이 분포를 두는 구조이다.

표현학습의 관점에서 중요한 것은 인코더이다. 관측 x가 주어졌을 때 잠재변수의 사후분포 \(p_{\theta}(z \mid x)\)를 구하고 싶지만, 일반적으로 이는 계산이 어렵다. VAE는 이를 근사하기 위해 인코더가 \(q_{\phi}(z \mid x)\)라는 근사 사후분포를 출력하도록 두는 구조이다.

보통 \(q_{\phi}(z \mid x) = \mathcal{N}(\mu_{\phi}(x),diag(\sigma_{\phi}^{2}(x)))\)로 두며, 인코더 신경망이 평균 \(\mu_{\phi}(x)\)와 분산 \(\sigma_{\phi}^{2}(x)\)를 출력하는 구조이다. 따라서 VAE의 잠재표현은 ”점”이 아니라 ”분포”이며, 관측치마다 잠재공간에서 평균과 불확실성을 함께 갖는 표현이라는 점이 핵심인 구조이다.

2. ELBO 직관: 재구성 항과 KL 정규화

VAE 학습의 목표는 관측 데이터의 주변우도 \(p_{\theta}(x)\)를 크게 만드는 것이다. 즉 데이터 \(x_{1},\ldots,x_{n}\)에 대해 \(\max_{\theta}\overset{n}{\sum_{i = 1}}\log p_{\theta}(x_{i})\)를 하고 싶지만, \(p_{\theta}(x) = \int p_{\theta}(x \mid z)p(z)dz\)의 적분이 고차원에서 어렵기 때문에 직접 최적화가 곤란한 구조이다.

VAE는 변분추론을 통해 \(\log p_{\theta}(x)\)의 하한을 최대화하는 방식으로 학습한다. 그 하한이 ELBO이며, 다음과 같은 형태로 정리되는 구조이다. \(\log p_{\theta}(x) \geq \mathbb{E}_{q_{\phi}(z \mid x)}\lbrack\log p_{\theta}(x \mid z)\rbrack - KL(q_{\phi}(z \mid x) \parallel p(z))\). 이 식의 오른쪽이 ELBO이다. 학습은 \(\theta,\phi\)에 대해 ELBO를 최대화하는 구조이다.

첫 번째 항 \(\mathbb{E}_{q_{\phi}(z \mid x)}\lbrack\log p_{\theta}(x \mid z)\rbrack\)는 재구성 항으로 해석되는 구조이다. 디코더가 잠재변수로부터 원래의 x를 얼마나 그럴듯하게 생성하는지를 측정하는 항이다. 연속형 데이터에서 \(p_{\theta}(x \mid z)\)를 가우시안으로 두고 분산을 상수로 두면, 이 항은 제곱재구성오차와 사실상 대응되는 구조이다.

두 번째 항 \(KL(q_{\phi}(z \mid x) \parallel p(z))\)는 정규화 항으로 해석되는 구조이다. 인코더가 출력하는 잠재분포가 사전분포 p(z)와 너무 멀어지지 않도록 벌점을 주는 항이다. 이 항은 잠재공간을 ”정리”하는 역할을 하며, 각 데이터 포인트의 잠재분포가 표준정규 근처에 놓이도록 유도하는 구조이다.

따라서 ELBO는 재구성을 잘하면서도 잠재분포를 규칙적인 형태로 유지하려는 균형의 목적함수이다. 재구성 항은 데이터 충실도를 높이고, KL 항은 잠재공간을 연속적이고 샘플링 가능한 형태로 만들며 과도한 암기를 방지하는 방향으로 작동하는 구조이다. 이 두 항의 균형이 VAE 표현의 성질을 결정하는 핵심이라는 결론이 되는 절이다.

3. 잠재공간 해석: 보간, 클러스터, disentanglement

VAE의 잠재공간 해석은 ”잠재벡터의 조작이 데이터 의미의 조작으로 이어지는가”를 보는 과정이다. 이는 표현학습의 질을 평가하는 핵심 직관이기도 하다.

첫째, 보간은 두 관측치 \(x^{(a)},x^{(b)}\)의 잠재평균 \(\mu^{(a)},\mu^{(b)}\)를 구한 뒤, \(z(t) = (1 - t)\mu^{(a)} + t\mu^{(b)},t \in \lbrack 0,1\rbrack\)로 잠재공간에서 선형 보간한 값을 디코더에 넣어 \(\widehat{x}(t) \sim p_{\theta}(x \mid z(t))\)를 생성해 보는 절차이다. 보간 결과가 부드럽게 변화하면 잠재공간이 연속적인 의미 구조를 학습한 것으로 해석되는 구조이다. 오토인코더에서는 잠재공간이 훈련 데이터 주변에서만 의미 있고 중간 영역이 비어 있을 수 있으나, VAE는 KL 정규화로 인해 보간 경로가 더 자연스럽게 나타날 가능성이 커지는 구조이다.

둘째, 클러스터 구조는 잠재공간에서 유사한 관측치가 가까이 모이는지를 보는 관점이다. 예를 들어 동일한 범주나 유사한 속성을 가진 데이터가 z 공간에서 군집을 형성하면, 잠재표현이 유사성을 보존하는 의미를 갖는 구조이다. 이는 z를 이용해 군집화나 시각화가 가능해지는 이유이기도 하다.

셋째, disentanglement는 잠재변수의 각 차원이 서로 다른 의미 요인을 분리해 담는 정도를 의미하는 개념이다. 예를 들어 한 잠재차원은 밝기, 다른 잠재차원은 형태처럼 서로 다른 요인이 분리되어 표현되면, 잠재공간의 해석 가능성이 높아지는 구조이다. VAE는 잠재변수에 독립적인 사전분포 \(p(z) = \mathcal{N}(0,I)\)를 두는 경우가 많아, 요인 분리에 유리한 성질을 가질 수 있으나, 일반 VAE가 항상 disentanglement를 보장하는 것은 아닌 구조이다. 그럼에도 ”잠재차원을 조금 움직였을 때 어떤 의미적 속성이 변하는가”는 VAE 해석에서 중요한 실험적 도구가 되는 구조이다.

4. 표현학습과 생성모형의 경계: 왜 샘플링이 가능한가

VAE가 오토인코더와 구분되는 가장 중요한 지점은 샘플링이 가능한 생성모형이라는 점이다. 오토인코더는 \(z = f_{\phi}(x)\)가 훈련 데이터로부터만 얻어지는 표현이며, 임의의 z를 넣었을 때 그 결과가 의미 있는 x가 된다는 보장이 약한 구조이다. 이는 잠재공간이 데이터가 놓인 부분만 ”조각나게” 채워질 수 있기 때문인 구조이다.

VAE에서는 z에 대한 사전분포 p(z)를 명시하고, 학습 과정에서 \(KL(q_{\phi}(z \mid x) \parallel p(z))\)를 통해 각 데이터의 잠재분포가 p(z)와 가까워지도록 강제하는 구조이다. 그 결과 학습이 잘 되면 잠재공간 전체가 p(z)의 질량이 놓이는 영역에서 비교적 규칙적으로 채워지는 구조가 된다.

따라서 학습 후에는 \(z \sim p(z),x \sim p_{\theta}(x \mid z)\)의 두 단계로 새로운 데이터를 생성할 수 있는 구조이다. 이것이 VAE에서 샘플링이 가능한 이유이며, 표현학습이 생성모형으로 확장되는 지점이다.

정리하면, VAE는 재구성 능력을 유지하면서도 잠재공간을 확률적으로 정규화하여 샘플링 가능한 구조를 만든다는 점에서 확률적 표현모형의 대표적 사례이다. 이 절의 요지는 재구성 항이 데이터 충실도를 담당하고, KL 항이 잠재공간의 연속성과 생성 가능성을 담당한다는 구조적 이해에 있다.

Chapter 3. 해석성과 표현력

차원축소와 표현학습의 핵심 선택은 해석성 해석 가능성과 표현력 표현 능력 사이의 균형을 어디에 둘 것인가의 문제이다. 선형 차원축소는 구조가 단순하여 해석이 명확한 장점이 있는 반면, 복잡한 비선형 구조를 충분히 담지 못하는 한계가 있는 방법이다.

비선형 표현학습은 복잡한 패턴을 포착하는 능력이 크지만, 학습된 표현이 무엇을 의미하는지 설명하기 어렵고, 데이터와 학습 설정에 따라 불안정해질 수 있는 위험이 있는 방법이다. 이 절은 선형과 비선형의 차이를 표현력 증가의 대가 관점에서 정리하고, PCA·요인분석과 AE·VAE의 설명 가능성을 비교하며, 실제 적용에서의 선택 기준을 제시하는 절이다.

1. 선형 ↔︎ 비선형: 표현력 증가의 대가

선형 차원축소는 관측 \(x \in \mathbb{R}^{p}\)를 선형 변환으로 저차원 표현 \(z \in \mathbb{R}^{k}\)로 만드는 방식이다. PCA는 \(z = W^{\top}x\) 형태이며, 요인분석은 \(x = \Lambda f + \varepsilon\)형태로 공통요인을 가정하는 방식이다. 선형 방법은 표현이 선형결합이므로 구조가 투명하고, 계산이 안정적이며, 표본이 크지 않아도 비교적 견고하게 작동하는 장점이 있는 방법이다.

비선형 표현학습은 \(z = f_{\phi}(x)\)가 비선형 함수가 되는 방식이다. 오토인코더와 VAE는 다층 신경망을 통해 복잡한 비선형 변환을 학습하여, 선형 부분공간이 아니라 비선형 다양체 구조를 포착할 수 있는 방법이다. 이때 표현력의 증가는 데이터가 실제로 비선형 구조를 가질 때 재구성 성능과 다운스트림 예측 성능을 개선할 수 있는 가능성을 제공하는 장점이 있는 방법이다.

그러나 표현력 증가에는 대가가 따르는 구조이다. 첫째, 표본 요구량이 커지는 구조이다. 비선형 모형은 파라미터가 많고 함수공간이 넓으므로, 안정적으로 일반화하려면 충분한 표본과 적절한 정규화가 필요해지는 구조이다.

둘째, 최적화 불확실성이 증가하는 구조이다. PCA는 고유값 분해로 전역해가 주어지지만, 신경망 기반 오토인코더는 경사하강 기반 학습이므로 초기값, 학습률, 배치 구성에 따라 수렴 결과가 달라질 수 있는 구조이다.

셋째, 과적합 위험이 증가하는 구조이다. 비선형 모델은 재구성 손실을 매우 낮추는 방식으로 훈련 데이터를 암기할 수 있으며, 이는 일반화된 표현을 얻는 목적과 충돌할 수 있는 구조이다.

넷째, 해석 가능성이 감소하는 구조이다. 선형 로딩은 변수 기여도를 직접 보여주지만, 비선형 잠재표현은 동일한 수준의 직접 해석이 어렵고 사후 분석이 필요해지는 구조이다.

정리하면 선형에서 비선형으로 이동하는 것은 더 강한 표현력을 얻는 대신, 더 큰 데이터 요구, 더 강한 정규화 필요, 더 큰 최적화 불확실성, 더 낮은 해석 가능성을 감수하는 선택이라는 결론이 되는 절이다.

2. 설명 가능성 비교: PCA·요인분석의 로딩과 AE·VAE의 잠재특성

PCA와 요인분석은 로딩 행렬을 중심으로 해석이 가능한 방법이다. PCA에서는 \(Z = XW\)에서 W의 각 열 \(w_{m}\)이 m번째 주성분의 로딩이며, 원변수들이 그 주성분에 어떻게 기여하는지가 계수로 드러나는 구조이다.

요인분석에서는 \(\Lambda\)가 요인적재이며, 변수 \(x_{j}\)가 요인 \(f_{m}\)과 어떤 관계를 갖는지가 \(\lambda_{jm}\)로 나타나는 구조이다. 또한 공통성 \(h_{j}^{2} = \sum_{m}\lambda_{jm}^{2}\)와 고유성 \(\psi_{j}\) 같은 지표로 변수 수준에서 설명되는 분산과 남는 분산이 구분되는 구조이다. 회전을 통해 단순구조를 만들면 요인 해석이 더 명확해지는 장점이 있는 방법이다.

오토인코더와 VAE는 잠재표현이 신경망의 내부 표현으로 정의되는 방식이다. 오토인코더에서는 \(z = f_{\phi}(x)\)가 어떤 비선형 조합으로 형성되므로, 로딩처럼 ”변수 기여도”를 직접 읽어내기 어려운 구조이다.

따라서 잠재특성의 해석은 보통 간접적 방법으로 이루어지는 구조이다. 예를 들어 잠재차원 하나를 변화시키며 디코더 출력이 어떻게 바뀌는지를 보는 민감도 분석, 입력 변수에 대한 기여도를 근사하는 방법, 또는 잠재공간에서의 군집 구조를 라벨과 비교하는 방법이 사용되는 구조이다.

VAE는 오토인코더와 달리 잠재변수 z를 확률변수로 두고 \(q_{\phi}(z \mid x)\)를 학습하므로, 잠재표현에 불확실성이 포함되는 특징이 있는 방법이다. 잠재공간의 해석은 보간, 샘플링, 잠재차원 조작을 통해 수행되는 경우가 많으며, 이는 로딩 기반 해석과 성격이 다르다.

즉 PCA·요인분석의 해석은 로딩이라는 선형 계수의 해석이고, AE·VAE의 해석은 잠재공간에서의 조작과 생성 결과를 통해 의미를 추론하는 해석이라는 구분이 성립하는 구조이다.

정리하면 PCA·요인분석은 구조적 해석이 강한 반면, AE·VAE는 표현력은 강하지만 해석은 사후적이며 실험적이라는 성격이 강한 방법이라는 결론이 되는 절이다.

3. 선택 가이드: 데이터 규모, 비선형성, 목적, 규제와 설명책임

방법 선택은 목적과 제약을 동시에 고려하는 의사결정 문제이다. 다음 기준이 실무적으로 핵심인 구조이다.

첫째, 데이터 규모 n과 변수 수 p의 관계가 중요하다. 표본이 작거나 중간 규모이며 안정성이 우선이면 PCA나 요인분석 같은 선형 방법이 유리한 경우가 많다. 표본이 충분히 크고 데이터의 구조가 복잡할 가능성이 크면 오토인코더나 VAE 같은 비선형 표현학습이 유리해질 수 있는 구조이다. 특히 이미지, 음성, 텍스트처럼 고차원 비선형 구조가 강한 데이터에서는 비선형 표현학습의 이점이 커질 수 있는 구조이다.

둘째, 비선형성의 정도가 중요하다. 데이터가 본질적으로 선형 부분공간에 가깝다면 PCA가 간단하고 강력한 선택이 되는 구조이다. 데이터가 비선형 다양체 구조를 갖는다면, 선형 축소는 중요한 변동을 놓칠 수 있으며 비선형 오토인코더가 더 나은 재구성과 더 유용한 표현을 제공할 수 있는 구조이다.

셋째, 목적이 무엇인지가 가장 중요하다. 시각화와 탐색이 목적이면 PCA, 그리고 경우에 따라 저차원 잠재표현을 제공하는 오토인코더가 선택지이지만, 해석성과 안정성 측면에서 PCA가 기본 선택이 되는 구조이다. 예측이 목적이면, 선형 축소 뒤의 다운스트림 성능과 비선형 표현학습 뒤의 다운스트림 성능을 교차검증으로 비교해 선택하는 것이 타당한 구조이다. 생성이 목적이면, 오토인코더보다 VAE가 자연스러운 선택이 되는 구조이다. 이는 VAE가 사전분포 p(z)를 통해 샘플링이 가능하도록 잠재공간을 정규화하기 때문인 구조이다.

넷째, 규제와 설명책임이 중요하다. 정책 평가, 공공 의사결정, 의료·금융처럼 설명 가능성이 요구되는 영역에서는 PCA와 요인분석이 유리한 경우가 많다. 로딩과 공통성 같은 지표는 설명 책임을 뒷받침하는 근거로 제시하기 쉬운 구조이다. 반면 AE·VAE는 추가적인 해석 절차와 검증이 요구되며, 설명 책임이 강한 환경에서는 적용 장벽이 높아질 수 있는 구조이다.

다섯째, 운영 안정성과 재현성이 중요하다. PCA는 실행 결과가 안정적이고 재현성이 높지만, 신경망 기반 모델은 학습 설정에 따라 결과가 달라질 수 있으므로 고정된 실무 운영에서 품질 관리가 필요해지는 구조이다.

정리하면, 해석성과 안정성이 우선인 상황에서는 PCA·요인분석이 기본 선택이 되는 구조이다. 데이터가 크고 비선형성이 강하며 예측·생성이 핵심이면 AE·VAE가 유리해질 수 있는 구조이다. 최종 선택은 목적에 맞는 평가 기준을 정하고, 교차검증과 외부 검증을 통해 표현의 유용성과 안정성을 확인하는 방식으로 수행되는 것이 타당하다는 결론이 되는 절이다.